如何在 Python 中搜索子字符串是否在二進製文件中? (How to search if a substring is into a binary file in Python?)


問題描述

如何在 Python 中搜索子字符串是否在二進製文件中? (How to search if a substring is into a binary file in Python?)

我很想從 PDF 文件中獲取一條信息。如果我在文本編輯器中顯示 PDF 文件,我總能在表單中找到我要查找的內容

/Contents (Localidad: XXXXXXXXXXX)

X 是我想要的。

我知道有PyPDF2 來讀取 PDF 文件,問題是,我沒有找到這塊使用它。我可以閱讀文件的其餘部分,並將其轉換為文本等,但我無法使用 PyPDF2 獲取此特定信息。

所以,我想我可以這樣做:

file = open("yada.pdf", "rb")
for line in file:
    if "(Localidad:" in line:
        # Extract the XXX's

當然,如果我這樣做,Python會報錯:TypeError: a bytes‑like object is required, not 'str'

你怎麼看?我這樣做是完全錯誤的嗎?有什麼更好的方法?


參考解法

方法 1:

Try it like this:

import re
with open("yada.pdf", "rb") as f:
    text = str(f.read()) # This will return the contents of the pdf in string format
    location = re.findall("/Contents \(Localidad: (.+?)\)", text)
    f.close()

(by luisferCarles Mitjans)

參考文件

  1. How to search if a substring is into a binary file in Python? (CC BY‑SA 2.5/3.0/4.0)

#Python #pdf






相關問題

如何從控制台中導入的文件中訪問變量的內容? (How do I access the contents of a variable from a file imported in a console?)

在 python 3.5 的輸入列表中添加美元符號、逗號和大括號 (Adding dollar signs, commas and curly brackets to input list in python 3.5)

為 KeyError 打印出奇怪的錯誤消息 (Strange error message printed out for KeyError)

django 1.9 中的 from django.views.generic.simple import direct_to_template 相當於什麼 (What is the equivalent of from django.views.generic.simple import direct_to_template in django 1.9)

查詢嵌入列表中的數組 (Querying for array in embedded list)

如何在 Python 中搜索子字符串是否在二進製文件中? (How to search if a substring is into a binary file in Python?)

為什麼要避免 while 循環? (Why avoid while loops?)

使用python的json模塊解析json請求 (Parse a json request using json module of python)

為什麼使用 py2app 模塊創建 mac 文件時出現錯誤? (Why i am getting Error when creating mac file using py2app module?)

當 python 線程在網絡調用(HTTPS)中並且發生上下文切換時會發生什麼? (What happens when the python thread is in network call(HTTPS) and the context switch happens?)

如何繪製一條帶斜率和一個點的線?Python (How to plot a line with slope and one point given? Python)

Pickle 找不到我不使用的模塊? (Pickle can't find module that I am not using?)







留言討論